from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()
documents = open("G:\信息抽取\datasets\step1_test_2.txt",encoding='utf-8')
tfidf_matrix = tfidf_vec.fit_transform(documents)
# 拟合模型，并返回文本矩阵  表示了每个单词在每个文档中的 TF-IDF 值
print('输出每个单词在每个文档中的 TF-IDF 值，向量里的顺序是按照词语的 id 顺序来的:', '\n', tfidf_matrix.toarray())
print('不重复的词:', tfidf_vec.get_feature_names())
print('输出每个单词对应的 id 值:', tfidf_vec.vocabulary_)
print('返回idf值:', tfidf_vec.idf_)
print('返回停用词表:', tfidf_vec.stop_words_)
